歌声合成 Vocal Synthesizer
音声合成 Speech Synthesisの歌声版
ボーカルシンセサイザー - Wikipedia
特徴
楽器としての歌声
人間の歌声と比べて
ロングトーン、ハイトーン、早口などの歌唱表現が可能に
作曲ができるが、歌唱できない、人のための制作支援
仕組み
物理モデル
人間 人の生体構造をモデル Model化
声道や鼻道
メリット
パラメータと物理量が直結
直感的に構造が理解しやすい
デメリット
精度を上げるためには、パラメータが膨大に必要
素片連結
音声を時間領域の波形として表現、断片を連結
メリット
発音単位では自然な音声
デメリット
データ量が膨大
接続部が不自然
機械学習 Machine Learning
Deep Learning
評価軸
楽音
歌詞
様々な楽器をリアルタイムに切り替えながら演奏
発声タイミング
音符のタイミングを母音に合わせる
音声
音程、韻律
芸術としての美しさ
伸ばし音あるか
ノイズがないか
必要要件
了解性
合成された歌唱の歌詞が聞き取れるか?
自然性
人間の歌声として不自然でないか?
あるとうれしい
息継ぎ,ゆらぎ
操作感
システム全体として使いやすいか?
既存の音楽制作に連携しやすいか?
例
VOCALOID ボーカロイド